212 research outputs found
Research and Technology Development on Superconducting Current Limiting Transformers
Grid appliances, based on superconducting materials, can reduce the threats to power grids posed by lowered grid impedances due to decentralization in grid topology and offer further advantages. This book introduces superconducting materials, the functionality of a superconducting current limiting transformer and the design and optimization process behind such a device. It further presents the manufacturing of a superconducting hybrid transformer of the 1 MVA-class and its experimental testing
Comparison of Concept Learning Algorithms With Emphasis on Ontology Engineering for the Semantic Web
In the context of the Semantic Web, ontologies based on Description Logics are gaining more and more importance for knowledge representation on a large scale. While the need arises for high quality
ontologies with large background knowledge to enable powerful machine reasoning, the acquisition of such knowledge is only advancing slowly, because of the lack of appropriate tools. Concept learning
algorithms have made a great leap forward and can help to speed up knowledge acquisition in the form of induced concept descriptions. This work investigated whether concept learning algorithms have
reached a level on which they can produce results that can be used in an ontology engineering process. Two learning algorithms (YinYang and DL-Learner) are investigated in detail and tested with
benchmarks. A method that enables concept learning on large knowledge bases on a SPARQL endpoint is presented and the quality of learned concepts is evaluated in a real use case. A proposal is made
to increase the complexity of learned concept descriptions by circumventing the Open World Assumption of Description Logics
COPD und Begleiterkrankungen: Eine Analyse der Begleiterkrankungen in Zusammenhang mit den Schwere-graden der COPD und deren Auswirkungen auf die Hospitalisationsrate un-ter besonderer BerĂŒcksichtigung von Risikofaktoren
Die COPD ist eine Erkrankung mit hoher PrĂ€valenz, die in den nĂ€chsten Jahren weiter zunehmen wird. Aufgrund der ausgeprĂ€gten klinischen Symptomatik, der hohen MortalitĂ€tsrate und des stetig steigenden Alters in der Bevölkerung wird die COPD aus gesundheits- und sozio-ökonomischen GrĂŒnden in den nĂ€chsten Jahren immer mehr an Bedeutung gewinnen. Daher ist eine Risikostratifizierung der Erkrankung COPD nicht nur fĂŒr die Betroffenen von starker Bedeutung.
In der Robert-Koch-Klinik, dem Thoraxzentrum des Klinikums St. Georg Leipzig und Lehrkrankenhaus der UniversitÀt Leipzig wurden vom 01.01.2002 bis zum 01.03.2009 insgesamt 366 Patienten mit COPD in die Studie aufgenommen, nach international anerkannten Leitlinien in Schweregrade eingeteilt und retrospektiv hinsichtlich ihrer Begleiterkrankungen analysiert.
Ziel der Arbeit war eine Evaluation von bedeutsamen Begleiterkrankungen der COPD. Dabei wurden die HĂ€ufigkeiten und Arten der Begleiterkrankungen in Zusammenhang mit den Schweregraden der COPD und deren Auswirkungen auf die Hospitalisationsrate untersucht und die Frage beantwortet, ob und wenn ja welche Risikofaktoren fĂŒr das Erwerben der Begleiterkrankungen eine Rolle spielen.
Das vorliegende Kollektiv war im Mittel 62,7±9,6 Jahre alt, bestand zu 64% aus MĂ€nnern und hatte einen BMI von im Mittel 26,1±5,9. Die Patienten waren ĂŒberwiegend Raucher oder Ex-Raucher. Als Begleiterkrankungen wurden die KHK mit 20,5%, die arterielle Hypertonie mit 58,5%, die HyperlipoproteinĂ€mie mit 11,7%, der Diabetes Mellitus mit 21,4%, embolische Ereignisse mit 10,7% und die Osteoporose mit 15,3% nachgewiesen. Innerhalb des Beobachtungszeitraumes wurden 75,4% ein weiteres Mal in das Krankenhaus stationĂ€r aufgenommen.
Nur bei der Begleiterkrankung HyperlipoproteinÀmie lieà sich eine statistisch signifikante Assoziation mit den COPD-Schweregraden nachweisen. Bei der Anzahl der Wiederaufnahmen ergab sich ein statistisch signifikanter Zusammenhang mit dem Schweregrad der COPD-Erkrankung. Eine inverse Assoziation konnte zwischen dem BMI und dem ansteigenden COPD-Schweregrad berechnet werden. Das Geschlecht, das CRP und das Raucherverhalten konnten dagegen statistisch nicht mit dem steigenden Schweregrad der Erkrankung assoziiert werden.
Im Einklang mit der aktuellen Literatur lieà sich in unseren Daten eine hohe PrÀvalenz bei Erkrankten mit COPD hinsichtlich der Begleiterkrankungen KHK, arterielle Hypertonie, Diabetes mellitus und Osteoporose nachweisen. Es lieà sich kein erhöhtes Auftreten der Anzahl von embolischen Ereignissen bei COPD-Erkrankten feststellen. Nur bei der Osteoporose konnte eine ansteigende PrÀvalenzhÀufigkeit in den COPD-Stadien erkannt werden, die allerdings nicht statistisch signifikant war.
Die Anzahl der stationÀren Wiederaufnahmen stiegen dagegen statistisch signifikant analog zum Schweregrad der COPD-Erkrankung an, wÀhrend sich der Schweregrad der COPD invers zum BMI verhielt.
In einer zusammenfassenden Bewertung konnte diese Arbeit den Zusammenhang zwischen der COPD und der HĂ€ufigkeit der aufgefĂŒhrten Begleiterkrankungen zeigen. Es wurde dokumentiert, dass Patienten mit COPD fĂŒr die untersuchten Begleiterkrankungen eine starke PrĂ€disposition haben. Die Osteoporose, der BMI und die Hospitalisationsrate scheinen mit dem Schweregrad der COPD zusammenzuhĂ€ngen, so dass insbesondere hinsichtlich dieser genannten Faktoren ein systematisches Screening erfolgen sollte. Die Erkenntnis der engen Beziehung der Begleiterkrankungen, insbesondere die mit dem Schweregrad zunehmende PrĂ€valenz der Osteoporose, spielt in der PrĂ€vention COPD-Erkrankter und fĂŒr deren Prognose eine groĂe Rolle, da durch frĂŒhe Therapie SekundĂ€rschĂ€den verhindert werden könnten.
Dies Arbeit zeigt, dass die COPD, unter BerĂŒcksichtigung der steigenden MorbiditĂ€t der Grunderkrankung und der mit ihr verbundenen Begleiterkrankungen sowie der steigenden sozioökonomischen Kosten durch vermehrte Krankenhausaufenthalte, in Zukunft ein zentrales Thema in der Medizin werden wird und verdeutlicht die Forderung nach weiterer Forschung auf diesem Gebiet
Research and Technology Development on Superconducting Current Limiting Transformers
Moderne EnergieĂŒbertragungsnetze unterliegen stĂ€ndigen VerĂ€nderungen hin zu höherer Ăbertragungseffizienz, zu gröĂeren Leistungsdichten in Ballungsgebieten und InnenstĂ€dten und hin zu einer zunehmenden Dezentralisierung der Energieeinspeisung auf den unteren Spannungsebenen. Die nötige Anpassung der Netztopologie an die genannten Punkte fĂŒhrt oft zu einer Reduktion der Netzimpedanz und zu einer Zunahme der Vermaschung des Stromnetzes. Eine geringere Netzimpedanz fĂŒhrt in FehlerfĂ€llen im Stromnetz jedoch auch zu einem Anstieg der Kurzschlussleistungen. Ebenso kann, bei einer dichteren Vermaschung des Stromnetzes, ein auftretender Fehler weitreichendere Konsequenzen haben und den sicheren und unterbrechungsfreien Netzbetrieb stĂ€rker gefĂ€hrden.
Neuartige Netzkomponenten, basierend auf supraleitenden Materialien, können hier Abhilfe schaffen und durch signifikante Vorteile gegenĂŒber konventionellen Netzkomponenten und Schutzeinrichtungen zu einem unterbrechungsfreien und verlĂ€sslichen Netzbetrieb beitragen sowie die steigenden Auswirkungen von Netzfehlern effizient eindĂ€mmen. Die vorliegende Arbeit zeigt dies am Beispiel eines Transformators, der mit einer supraleitenden SekundĂ€rwicklung ausgestattet ist. Die intrinsischen Eigenschaften des supraleitenden Materials erweitern hierbei den Transformator um die FĂ€higkeit, auftretende Kurzschlussströme im Stromnetz aktiv und effizient zu reduzieren. Im Vergleich zu konventionellen Netzschutzeinrichtungen geschieht dies ohne nennenswerte Verzögerung nach dem Auftreten des Fehlers. In den Kapiteln dieser Arbeit wird das nötige Grundwissen zur Supraleitung, zur Funktionsweise und zur Konzeptionierung von supraleitenden strombegrenzenden Transformatoren dargestellt. Weiter wird das theoretisch erarbeitete Wissen im Bau eines Labordemonstrators der 1 MVA Leistungsklasse und dessen anschlieĂender experimenteller Evaluierung angewandt. Die einzelnen Abschnitte der vorliegenden Arbeit und deren Inhalt sind im Folgenden kurz zusammengefasst:
Kapitel 1 vermittelt die Grundlagen der Supraleitung und deren Anwendung in der Energietechnik. Hierbei wird speziell auf ZusammenhĂ€nge eingegangen, die fĂŒr die Konstruktion und den Bau eines strombegrenzenden supraleitenden Transformators von Wichtigkeit sind. Das Kapitel wird abgeschlossen mit einer Literaturrecherche zum Stand der Technik von supraleitenden Transformatoren und zu weiteren Anwendungen der Supraleitung in der Energietechnik. Im zweiten Kapitel der Arbeit wird der Auslegungsvorgang fĂŒr supraleitende Transformatoren mit strombegrenzenden Eigenschaften erarbeitet. Hierzu wir ein Verfahren vorgestellt, mit welchem die zu erwartenden transienten Eigenschaften eines Transformatorentwurfs simuliert und optimiert werden können. Das zweite Kapitel endet mit der Vorstellung des erarbeiteten Designs fĂŒr einen supraleitenden strombegrenzenden Transformator der 1 MVA Leistungsklasse, welcher im weiteren Verlauf dieser Arbeit als Labordemonstrator gebaut und experimentell untersucht wird.
Kapitel 3 beschreibt verschiedene experimentelle Untersuchungen an supraleitenden Bandleitern, die durchgefĂŒhrt wurden um deren Eignung zum Einsatz in strombegrenzenden Transformatoren festzustellen. Die Untersuchungsergebnisse werden anschlieĂend verwendet, um den Auslegungsvorgang fĂŒr supraleitende Transformatoren zu optimieren und um einen geeigneten, kommerziell erhĂ€ltlichen Supraleiter zum Einsatz in dem entworfenen supraleitenden Transformator festzulegen. In Kapitel 4 wird der Aufbau des supraleitenden strombegrenzenden Transformators beschrieben. Hierbei wird auf die einzelnen Transformatorkomponenten im Detail eingegangen und es werden die konstruktiven Details des Aufbaus erlĂ€utert.
Im fĂŒnften Kapitel der Arbeit werden die experimentellen Untersuchungen an dem gebauten supraleitenden Transformator vorgestellt. Das Kapitel umfasst die Beschreibung der durchgefĂŒhrten Messungen als auch der verwendeten Messmethoden und Laboraufbauten. Die beschriebenen Messungen behandeln die Effizienz der Strombegrenzung des Transformators im Fehlerfall, den Wirkungsgrad und die Verlustmechanismen des Transformatoraufbaus bei verschiedenen Belastungen, die AC-Verluste der verwendeten Supraleiter als auch die EffektivitĂ€t des eingesetzten KĂŒhlkonzepts.
Kapitel 6 stellt die Ergebnisse der durchgefĂŒhrten Messungen vor und diskutiert diese im Detail. Hierbei wird gezeigt, dass der gebaute Transformator bei einem Kurzschluss den Fehlerstrom im Maximum der ersten Halbwelle auf 68 % des prospektiven Kurzschlussstroms reduziert und dieser im Verlauf der Strombegrenzung weiter, auf unter 30 % des prospektiven Wertes absinkt. Die durchgefĂŒhrten Verlustmessungen zeigen eine Gesamteffizienz von 99.08%fĂŒr ein dreiphasiges Transformatormodell unter Volllast. Darin enthalten sind die gemessenen AC-Verluste des Supraleiters mit 633 W. Weiter wird die Bestimmung der relativen Kurzschlussspannung zu 2.89 % gezeigt.
ZusĂ€tzlich werden die Messergebnisse mit den, in Kapitel 2 erarbeiteten Simulationsergebnissen verglichen und zu einer weiteren Optimierung des vorgestellten Auslegungsvorgangs verwendet. Zwischen den Mess- und Simulationsergebnissen zeigt sich hierbei eine sehr gute Ăbereinstimmung, welche die Richtigkeit der verwendeten Simulationsmodelle bestĂ€tigt.
AbschlieĂend wird das Gesamtergebnis der vorliegenden Arbeit zusammengefasst und es wird ein Ausblick auf zukĂŒnftig mögliche Forschungsarbeiten zum Einsatz von supraleitenden strombegrenzenden Transformatoren aufgezeigt
Integrating Natural Language Processing (NLP) and Language Resources Using Linked Data
This thesis is a compendium of scientific works and engineering
specifications that have been contributed to a large community of
stakeholders to be copied, adapted, mixed, built upon and exploited in
any way possible to achieve a common goal: Integrating Natural Language
Processing (NLP) and Language Resources Using Linked Data
The explosion of information technology in the last two decades has led
to a substantial growth in quantity, diversity and complexity of
web-accessible linguistic data. These resources become even more useful
when linked with each other and the last few years have seen the
emergence of numerous approaches in various disciplines concerned with
linguistic resources and NLP tools. It is the challenge of our time to
store, interlink and exploit this wealth of data accumulated in more
than half a century of computational linguistics, of empirical,
corpus-based study of language, and of computational lexicography in all
its heterogeneity.
The vision of the Giant Global Graph (GGG) was conceived by Tim
Berners-Lee aiming at connecting all data on the Web and allowing to
discover new relations between this openly-accessible data. This vision
has been pursued by the Linked Open Data (LOD) community, where the
cloud of published datasets comprises 295 data repositories and more
than 30 billion RDF triples (as of September 2011).
RDF is based on globally unique and accessible URIs and it was
specifically designed to establish links between such URIs (or
resources). This is captured in the Linked Data paradigm that postulates
four rules: (1) Referred entities should be designated by URIs, (2)
these URIs should be resolvable over HTTP, (3) data should be
represented by means of standards such as RDF, (4) and a resource should
include links to other resources.
Although it is difficult to precisely identify the reasons for the
success of the LOD effort, advocates generally argue that open licenses
as well as open access are key enablers for the growth of such a network
as they provide a strong incentive for collaboration and contribution by
third parties. In his keynote at BNCOD 2011, Chris Bizer argued that
with RDF the overall data integration effort can be âsplit between data
publishers, third parties, and the data consumerâ, a claim that can be
substantiated by observing the evolution of many large data sets
constituting the LOD cloud.
As written in the acknowledgement section, parts of this thesis has
received numerous feedback from other scientists, practitioners and
industry in many different ways. The main contributions of this thesis
are summarized here:
Part I â Introduction and Background.
During his keynote at the Language Resource and Evaluation Conference in
2012, Sören Auer stressed the decentralized, collaborative, interlinked
and interoperable nature of the Web of Data. The keynote provides strong
evidence that Semantic Web technologies such as Linked Data are on its
way to become main stream for the representation of language resources.
The jointly written companion publication for the keynote was later
extended as a book chapter in The Peopleâs Web Meets NLP and serves as
the basis for âIntroductionâ and âBackgroundâ, outlining some stages of
the Linked Data publication and refinement chain. Both chapters stress
the importance of open licenses and open access as an enabler for
collaboration, the ability to interlink data on the Web as a key feature
of RDF as well as provide a discussion about scalability issues and
decentralization. Furthermore, we elaborate on how conceptual
interoperability can be achieved by (1) re-using vocabularies, (2) agile
ontology development, (3) meetings to refine and adapt ontologies and
(4) tool support to enrich ontologies and match schemata.
Part II - Language Resources as Linked Data.
âLinked Data in Linguisticsâ and âNLP & DBpedia, an Upward Knowledge
Acquisition Spiralâ summarize the results of the Linked Data in
Linguistics (LDL) Workshop in 2012 and the NLP & DBpedia Workshop in
2013 and give a preview of the MLOD special issue. In total, five
proceedings â three published at CEUR (OKCon 2011, WoLE 2012, NLP &
DBpedia 2013), one Springer book (Linked Data in Linguistics, LDL 2012)
and one journal special issue (Multilingual Linked Open Data, MLOD to
appear) â have been (co-)edited to create incentives for scientists to
convert and publish Linked Data and thus to contribute open and/or
linguistic data to the LOD cloud. Based on the disseminated call for
papers, 152 authors contributed one or more accepted submissions to our
venues and 120 reviewers were involved in peer-reviewing.
âDBpedia as a Multilingual Language Resourceâ and âLeveraging the
Crowdsourcing of Lexical Resources for Bootstrapping a Linguistic Linked
Data Cloudâ contain this thesisâ contribution to the DBpedia Project in
order to further increase the size and inter-linkage of the LOD Cloud
with lexical-semantic resources. Our contribution comprises extracted
data from Wiktionary (an online, collaborative dictionary similar to
Wikipedia) in more than four languages (now six) as well as
language-specific versions of DBpedia, including a quality assessment of
inter-language links between Wikipedia editions and internationalized
content negotiation rules for Linked Data. In particular the work
described in created the foundation for a DBpedia Internationalisation
Committee with members from over 15 different languages with the common
goal to push DBpedia as a free and open multilingual language resource.
Part III - The NLP Interchange Format (NIF).
âNIF 2.0 Core Specificationâ, âNIF 2.0 Resources and Architectureâ and
âEvaluation and Related Workâ constitute one of the main contribution of
this thesis. The NLP Interchange Format (NIF) is an RDF/OWL-based format
that aims to achieve interoperability between Natural Language
Processing (NLP) tools, language resources and annotations. The core
specification is included in and describes which URI schemes and RDF
vocabularies must be used for (parts of) natural language texts and
annotations in order to create an RDF/OWL-based interoperability layer
with NIF built upon Unicode Code Points in Normal Form C. In , classes
and properties of the NIF Core Ontology are described to formally define
the relations between text, substrings and their URI schemes. contains
the evaluation of NIF.
In a questionnaire, we asked questions to 13 developers using NIF. UIMA,
GATE and Stanbol are extensible NLP frameworks and NIF was not yet able
to provide off-the-shelf NLP domain ontologies for all possible domains,
but only for the plugins used in this study. After inspecting the
software, the developers agreed however that NIF is adequate enough to
provide a generic RDF output based on NIF using literal objects for
annotations. All developers were able to map the internal data structure
to NIF URIs to serialize RDF output (Adequacy). The development effort
in hours (ranging between 3 and 40 hours) as well as the number of code
lines (ranging between 110 and 445) suggest, that the implementation of
NIF wrappers is easy and fast for an average developer. Furthermore the
evaluation contains a comparison to other formats and an evaluation of
the available URI schemes for web annotation.
In order to collect input from the wide group of stakeholders, a total
of 16 presentations were given with extensive discussions and feedback,
which has lead to a constant improvement of NIF from 2010 until 2013.
After the release of NIF (Version 1.0) in November 2011, a total of 32
vocabulary employments and implementations for different NLP tools and
converters were reported (8 by the (co-)authors, including Wiki-link
corpus, 13 by people participating in our survey and 11 more, of
which we have heard). Several roll-out meetings and tutorials were held
(e.g. in Leipzig and Prague in 2013) and are planned (e.g. at LREC
2014).
Part IV - The NLP Interchange Format in Use.
âUse Cases and Applications for NIFâ and âPublication of Corpora using
NIFâ describe 8 concrete instances where NIF has been successfully used.
One major contribution in is the usage of NIF as the recommended RDF
mapping in the Internationalization Tag Set (ITS) 2.0 W3C standard
and the conversion algorithms from ITS to NIF and back. One outcome
of the discussions in the standardization meetings and telephone
conferences for ITS 2.0 resulted in the conclusion there was no
alternative RDF format or vocabulary other than NIF with the required
features to fulfill the working group charter. Five further uses of NIF
are described for the Ontology of Linguistic Annotations (OLiA), the
RDFaCE tool, the Tiger Corpus Navigator, the OntosFeeder and
visualisations of NIF using the RelFinder tool. These 8 instances
provide an implemented proof-of-concept of the features of NIF.
starts with describing the conversion and hosting of the huge Google
Wikilinks corpus with 40 million annotations for 3 million web sites.
The resulting RDF dump contains 477 million triples in a 5.6 GB
compressed dump file in turtle syntax. describes how NIF can be used to
publish extracted facts from news feeds in the RDFLiveNews tool as
Linked Data.
Part V - Conclusions.
provides lessons learned for NIF, conclusions and an outlook on future
work. Most of the contributions are already summarized above. One
particular aspect worth mentioning is the increasing number of
NIF-formated corpora for Named Entity Recognition (NER) that have come
into existence after the publication of the main NIF paper Integrating
NLP using Linked Data at ISWC 2013. These include the corpora converted
by Steinmetz, Knuth and Sack for the NLP & DBpedia workshop and an
OpenNLP-based CoNLL converter by BrĂŒmmer. Furthermore, we are aware of
three LREC 2014 submissions that leverage NIF: NIF4OGGD - NLP
Interchange Format for Open German Governmental Data, N^3 â A Collection
of Datasets for Named Entity Recognition and Disambiguation in the NLP
Interchange Format and Global Intelligent Content: Active Curation of
Language Resources using Linked Data as well as an early implementation
of a GATE-based NER/NEL evaluation framework by Dojchinovski and Kliegr.
Further funding for the maintenance, interlinking and publication of
Linguistic Linked Data as well as support and improvements of NIF is
available via the expiring LOD2 EU project, as well as the CSA EU
project called LIDER, which started in November 2013. Based on the
evidence of successful adoption presented in this thesis, we can expect
a decent to high chance of reaching critical mass of Linked Data
technology as well as the NIF standard in the field of Natural Language
Processing and Language Resources.:CONTENTS
i introduction and background 1
1 introduction 3
1.1 Natural Language Processing . . . . . . . . . . . . . . . 3
1.2 Open licenses, open access and collaboration . . . . . . 5
1.3 Linked Data in Linguistics . . . . . . . . . . . . . . . . . 6
1.4 NLP for and by the Semantic Web â the NLP Inter-
change Format (NIF) . . . . . . . . . . . . . . . . . . . . 8
1.5 Requirements for NLP Integration . . . . . . . . . . . . 10
1.6 Overview and Contributions . . . . . . . . . . . . . . . 11
2 background 15
2.1 The Working Group on Open Data in Linguistics (OWLG) 15
2.1.1 The Open Knowledge Foundation . . . . . . . . 15
2.1.2 Goals of the Open Linguistics Working Group . 16
2.1.3 Open linguistics resources, problems and chal-
lenges . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.4 Recent activities and on-going developments . . 18
2.2 Technological Background . . . . . . . . . . . . . . . . . 18
2.3 RDF as a data model . . . . . . . . . . . . . . . . . . . . 21
2.4 Performance and scalability . . . . . . . . . . . . . . . . 22
2.5 Conceptual interoperability . . . . . . . . . . . . . . . . 22
ii language resources as linked data 25
3 linked data in linguistics 27
3.1 Lexical Resources . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Linguistic Corpora . . . . . . . . . . . . . . . . . . . . . 30
3.3 Linguistic Knowledgebases . . . . . . . . . . . . . . . . 31
3.4 Towards a Linguistic Linked Open Data Cloud . . . . . 32
3.5 State of the Linguistic Linked Open Data Cloud in 2012 33
3.6 Querying linked resources in the LLOD . . . . . . . . . 36
3.6.1 Enriching metadata repositories with linguistic
features (Glottolog â OLiA) . . . . . . . . . . . 36
3.6.2 Enriching lexical-semantic resources with lin-
guistic information (DBpedia (â POWLA) â
OLiA) . . . . . . . . . . . . . . . . . . . . . . . . 38
4 DBpedia as a multilingual language resource:
the case of the greek dbpedia edition. 39
4.1 Current state of the internationalization effort . . . . . 40
4.2 Language-specific design of DBpedia resource identifiers 41
4.3 Inter-DBpedia linking . . . . . . . . . . . . . . . . . . . 42
4.4 Outlook on DBpedia Internationalization . . . . . . . . 44
5 leveraging the crowdsourcing of lexical resources
for bootstrapping a linguistic linked data cloud 47
5.1 Related Work . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Problem Description . . . . . . . . . . . . . . . . . . . . 50
5.2.1 Processing Wiki Syntax . . . . . . . . . . . . . . 50
5.2.2 Wiktionary . . . . . . . . . . . . . . . . . . . . . . 52
5.2.3 Wiki-scale Data Extraction . . . . . . . . . . . . . 53
5.3 Design and Implementation . . . . . . . . . . . . . . . . 54
5.3.1 Extraction Templates . . . . . . . . . . . . . . . . 56
5.3.2 Algorithm . . . . . . . . . . . . . . . . . . . . . . 56
5.3.3 Language Mapping . . . . . . . . . . . . . . . . . 58
5.3.4 Schema Mediation by Annotation with lemon . 58
5.4 Resulting Data . . . . . . . . . . . . . . . . . . . . . . . . 58
5.5 Lessons Learned . . . . . . . . . . . . . . . . . . . . . . . 60
5.6 Discussion and Future Work . . . . . . . . . . . . . . . 60
5.6.1 Next Steps . . . . . . . . . . . . . . . . . . . . . . 61
5.6.2 Open Research Questions . . . . . . . . . . . . . 61
6 nlp & dbpedia, an upward knowledge acquisition
spiral 63
6.1 Knowledge acquisition and structuring . . . . . . . . . 64
6.2 Representation of knowledge . . . . . . . . . . . . . . . 65
6.3 NLP tasks and applications . . . . . . . . . . . . . . . . 65
6.3.1 Named Entity Recognition . . . . . . . . . . . . 66
6.3.2 Relation extraction . . . . . . . . . . . . . . . . . 67
6.3.3 Question Answering over Linked Data . . . . . 67
6.4 Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.4.1 Gold and silver standards . . . . . . . . . . . . . 69
6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
iii the nlp interchange format (nif) 73
7 nif 2.0 core specification 75
7.1 Conformance checklist . . . . . . . . . . . . . . . . . . . 75
7.2 Creation . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2.1 Definition of Strings . . . . . . . . . . . . . . . . 78
7.2.2 Representation of Document Content with the
nif:Context Class . . . . . . . . . . . . . . . . . . 80
7.3 Extension of NIF . . . . . . . . . . . . . . . . . . . . . . 82
7.3.1 Part of Speech Tagging with OLiA . . . . . . . . 83
7.3.2 Named Entity Recognition with ITS 2.0, DBpe-
dia and NERD . . . . . . . . . . . . . . . . . . . 84
7.3.3 lemon and Wiktionary2RDF . . . . . . . . . . . 86
8 nif 2.0 resources and architecture 89
8.1 NIF Core Ontology . . . . . . . . . . . . . . . . . . . . . 89
8.1.1 Logical Modules . . . . . . . . . . . . . . . . . . 90
8.2 Workflows . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.2.1 Access via REST Services . . . . . . . . . . . . . 92
8.2.2 NIF Combinator Demo . . . . . . . . . . . . . .
92
8.3 Granularity Profiles . . . . . . . . . . . . . . . . . . . . .
93
8.4 Further URI Schemes for NIF . . . . . . . . . . . . . . .
95
8.4.1 Context-Hash-based URIs . . . . . . . . . . . . .
99
9 evaluation and related work 101
9.1 Questionnaire and Developers Study for NIF 1.0 . . . . 101
9.2 Qualitative Comparison with other Frameworks and
Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
9.3 URI Stability Evaluation . . . . . . . . . . . . . . . . . . 103
9.4 Related URI Schemes . . . . . . . . . . . . . . . . . . . . 104
iv the nlp interchange format in use 109
10 use cases and applications for nif 111
10.1 Internationalization Tag Set 2.0 . . . . . . . . . . . . . . 111
10.1.1 ITS2NIF and NIF2ITS conversion . . . . . . . . . 112
10.2 OLiA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
10.3 RDFaCE . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
10.4 Tiger Corpus Navigator . . . . . . . . . . . . . . . . . . 121
10.4.1 Tools and Resources . . . . . . . . . . . . . . . . 122
10.4.2 NLP2RDF in 2010 . . . . . . . . . . . . . . . . . . 123
10.4.3 Linguistic Ontologies . . . . . . . . . . . . . . . . 124
10.4.4 Implementation . . . . . . . . . . . . . . . . . . . 125
10.4.5 Evaluation . . . . . . . . . . . . . . . . . . . . . . 126
10.4.6 Related Work and Outlook . . . . . . . . . . . . 129
10.5 OntosFeeder â a Versatile Semantic Context Provider
for Web Content Authoring . . . . . . . . . . . . . . . . 131
10.5.1 Feature Description and User Interface Walk-
through . . . . . . . . . . . . . . . . . . . . . . . 132
10.5.2 Architecture . . . . . . . . . . . . . . . . . . . . . 134
10.5.3 Embedding Metadata . . . . . . . . . . . . . . . 135
10.5.4 Related Work and Summary . . . . . . . . . . . 135
10.6 RelFinder: Revealing Relationships in RDF Knowledge
Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.6.1 Implementation . . . . . . . . . . . . . . . . . . . 137
10.6.2 Disambiguation . . . . . . . . . . . . . . . . . . . 138
10.6.3 Searching for Relationships . . . . . . . . . . . . 139
10.6.4 Graph Visualization . . . . . . . . . . . . . . . . 140
10.6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . 141
11 publication of corpora using nif 143
11.1 Wikilinks Corpus . . . . . . . . . . . . . . . . . . . . . . 143
11.1.1 Description of the corpus . . . . . . . . . . . . . 143
11.1.2 Quantitative Analysis with Google Wikilinks Cor-
pus . . . . . . . . . . . . . . . . . . . . . . . . . . 144
11.2 RDFLiveNews . . . . . . . . . . . . . . . . . . . . . . . . 144
11.2.1 Overview . . . . . . . . . . . . . . . . . . . . . . 145
11.2.2 Mapping to RDF and Publication on the Web of
Data . . . . . . . . . . . . . . . . . . . . . . . . . 146
v conclusions 149
12 lessons learned, conclusions and future work 151
12.1 Lessons Learned for NIF . . . . . . . . . . . . . . . . . . 151
12.2 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . 151
12.3 Future Work . . . . . . . . . . . . . . . . . . . . . . . . . 15
Assessing and refining mappings to RDF to improve dataset quality
RDF dataset quality assessment is currently performed primarily after data is published. However, there is neither a systematic way to incorporate its results into the dataset nor the assessment into the publishing workflow. Adjustments are manually -but rarely- applied. Nevertheless, the root of the violations which often derive from the mappings that specify how the RDF dataset will be generated, is not identified. We suggest an incremental, iterative and uniform validation workflow for RDF datasets stemming originally from (semi-) structured data (e.g., CSV, XML, JSON). In this work, we focus on assessing and improving their mappings. We incorporate (i) a test-driven approach for assessing the mappings instead of the RDF dataset itself, as mappings reflect how the dataset will be formed when generated; and (ii) perform semi-automatic mapping refinements based on the results of the quality assessment. The proposed workflow is applied to diverse cases, e.g., large, crowdsourced datasets such as DBpedia, or newly generated, such as iLastic. Our evaluation indicates the efficiency of our workflow, as it significantly improves the overall quality of an RDF dataset in the observed cases
The TIGER Corpus Navigator
Proceedings of the Ninth International Workshop
on Treebanks and Linguistic Theories.
Editors: Markus Dickinson, Kaili MĂŒĂŒrisep and Marco Passarotti.
NEALT Proceedings Series, Vol. 9 (2010), 91-102.
© 2010 The editors and contributors.
Published by
Northern European Association for Language
Technology (NEALT)
http://omilia.uio.no/nealt .
Electronically published at
Tartu University Library (Estonia)
http://hdl.handle.net/10062/15891
- âŠ